利用xpath爬取百度贴吧内容返回空列表的问题

您所在的位置:网站首页 chrome下载了找不到 贴吧 利用xpath爬取百度贴吧内容返回空列表的问题

利用xpath爬取百度贴吧内容返回空列表的问题

2024-07-11 16:12| 来源: 网络整理| 查看: 265

利用xpath爬取百度贴吧内容返回空列表 问题描述:

用etree爬取百度贴吧的时候,用xpath获取不到内容 (虽然是个小问题但也让我花了好久!)

如下:想要获取图下方框中的内容

在这里插入图片描述 写的爬虫获取页面内容代码:

import requests from lxml import etree base_url = "https://tieba.baidu.com/f?kw=英雄联盟&ie=utf-8&pn=0" head = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36', } response = requests.get(base_url,headers=head) ele = etree.HTML(response.text) title = ele.xpath('//*[@id="thread_list"]/li[2]/div/div[2]/div[1]/div[1]/a/text()') print(title)

结果打印出来的是空列表: 在这里插入图片描述

起初以为是自己没找到正确的xpath,但是检查了很久知道写的xpath没问题,于是就把原HTML文件下载下来查看源代码。

结果在HTML文件里发现想要获取的内容全被注释了!代码都变成了灰色:

百思不得其解的我在网上查了后发现是设置的User-Agent有问题

就是加了这个Chrome的header就会导致页面中大部分html标签被放在了注释里面,接下来找不到对应的标签。

解决办法: (1)不添加header(有可能获取不到) (2)把Chrome的header换成IE的header

就可以啦!

IE浏览器的User-Agnet: Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3